Expresión Diferencial y Análisis Funcional de Pacientes con Psoriasis en Tratamiento con Glucocorticoides
Descripción de los datos
Equipo: #1
- Integrantes:
- Emiliano Ferro Rodríguez (eferro)
- Jorge Alfredo Suazo Victoria (jsuazo)
- Sofia Gamino Estrada (sgamino)
Correos electrónicos de los integrantes:
- Ferro: emiferro@comunidad.unam.mx
- Suazo: jasvpj@gmail.com
- Sofia: ghobibohg@gmail.com
Descripción de los datos:
Bioproject: PRJNA494527
Especie: Homo sapiens
Tipo de bibliotecas: Single-end
Método de selección: Total RNA
Número de transcriptomas: 34
Numero de replicas: 17 Replicas biologicas, con una replica tecnica por cada una ( Control y Firma génica inducida por glucocorticoides en la piel humana)
Secuenciador empleado: Illumina NextSeq 500
Distribución de las muestras: Control: 17 replicas de biopsias de piel de perforación de espesor completo (SRX4792843, SRX479284, SRX4792847, SRX4792849, SRX4792851, SRX4792853, SRX4792855, SRX4792857, SRX4792859, SRX4792861, SRX4792863, SRX4792865, SRX4792867, SRX4792869, SRX4792871, SRX4792873, SRX4792876)
Tratamiento: 17 muestras provientes de biopsias de piel tratadas con glucocorticoides (SRX4792844, SRX4792846, SRX4792848, SRX4792850, SRX4792852, SRX4792854, SRX4792856, SRX4792858, SRX4792860, SRX4792862, SRX4792864, SRX4792866, SRX4792868, SRX4792870, SRX4792872, SRX4792874, SRX4792875)
Profundidad de secuenciación de cada transcriptoma:
Control:
| Muestra | Profundidad |
|---|---|
| SRX4792843 | 21.3M |
| SRX479284 | 17.6M |
| SRX4792847 | 27.3M |
| SRX4792849 | 25.1M |
| SRX4792851 | 19M |
| SRX4792853 | 31.5M |
| SRX4792855 | 12.6M |
| SRX4792857 | 12.2M |
| SRX4792859 | 11.5M |
| SRX4792861 | 36.2M |
| SRX4792863 | 26M |
| SRX4792865 | 24.7M |
| SRX4792867 | 31.4M |
| SRX4792869 | 27M |
| SRX4792871 | 27.2M |
| SRX4792873 | 28.9M |
| SRX4792876 | 26.6M |
- Tratamiento:
| Muestra | Profundidad |
|---|---|
| SRX4792844 | 31.7M |
| SRX4792846 | 29.3M |
| SRX4792848 | 20.9M |
| SRX4792850 | 40.7M |
| SRX4792852 | 29.3M |
| SRX4792854 | 23.6M |
| SRX4792856 | 12.5M |
| SRX4792858 | 13.5M |
| SRX4792860 | 13.1M |
| SRX4792862 | 24.6M |
| SRX4792864 | 27.3M |
| SRX4792866 | 29.4M |
| SRX4792868 | 31.3M |
| SRX4792870 | 24.1M |
| SRX4792872 | 23.5M |
| SRX4792874 | 24.6M |
| SRX4792875 | 23.5M |
Tamaño de las lecturas: 75 pb
Artículo científico: Sarkar MK, Kaplan N, Tsoi LC, Xing X et al. Endogenous Glucocorticoid Deficiency in Psoriasis Promotes Inflammation and Abnormal Differentiation. J Invest Dermatol 2017 Jul;137(7):1474-1483. PMID: 28259685 Los datos se pueden descargar desde NCBI o usando ENA.
Abstract
En este estudio, comparamos la expresión génica en pacientes con psoriasis en tres tipos de muestras de piel: sana, lesional y no lesional. Además, analizamos los cambios en la expresión génica antes y 24 horas después del tratamiento con glucocorticoides para evaluar su impacto a corto plazo.
Para ello, se obtuvieron muestras de piel de 17 pacientes con psoriasis, generando un total de 34 transcriptomas. Se extrajo ARN total de cada muestra y se realizó secuenciación de ARN de alta resolución utilizando la plataforma Illumina NextSeq 500.
El estudio se basó en datos de expresión génica obtenidos mediante secuenciación de ARN (RNA-seq). Estos datos permiten cuantificar los niveles de transcripción de los genes en cada tipo de muestra y evaluar cómo varían en respuesta al tratamiento con glucocorticoides.
Para el análisis de los datos de RNA-seq, utilizamos el pipeline nf-core/rna-seq, implementado en Nextflow, debido a su reproducibilidad, escalabilidad y automatización en el procesamiento de datos de secuenciación. Este pipeline permite realizar pasos clave como control de calidad, alineación de lecturas y cuantificación de expresión génica de manera eficiente y estandarizada.
Posteriormente, realizamos un análisis de expresión diferencial con DESeq2, un paquete de R ampliamente utilizado en estudios transcriptómicos. Esta herramienta aplica modelos estadísticos para identificar genes que presentan cambios significativos en su expresión entre las diferentes condiciones del estudio (antes y después del tratamiento con glucocorticoides).
Para interpretar los cambios en la expresión génica, se realizó un análisis funcional utilizando Gene Ontology (GO), lo que permitió identificar los procesos biológicos más representados entre los genes diferencialmente expresados.
Además, se empleó KEGG para identificar las vías metabólicas en las que están involucrados estos genes. Este análisis permitió contextualizar los efectos del tratamiento con glucocorticoides dentro de rutas biológicas específicas, proporcionando una visión más completa de los mecanismos moleculares implicados en la psoriasis y su respuesta al tratamiento.
Los análisis de expresión diferencial revelaron que el tratamiento con glucocorticoides afecta genes involucrados en procesos antiinflamatorios y de diferenciación celular en la piel de pacientes con psoriasis.
Uno de los genes más regulados por los glucocorticoides fue TSC22D3, el cual desempeña un papel clave en la respuesta inmune y la diferenciación celular, sugiriendo su importancia en la acción del tratamiento.
Otro hallazgo relevante fue la regulación de MERTK, un receptor tirosina quinasa implicado en la resolución de la inflamación crónica, lo que refuerza su posible papel en la modulación de la psoriasis.
Buenas prácticas de Bioinformática
Nosotros usamos nf-core rnaseq, por lo cual la estructura de nuestras carpetas cambiará un poco, pero explicaremos cada una para que no queden dudas.
Estructura general
├── adapters
│ └── TruSeq3-SE.fa
├── data
│ ├── metadata.tsv
│ └── raw
├── DEG_output
│ └── deseq2_qc
│ ├── deseq2.dds.RData
│ ├── deseq2.pca.vals.txt
│ ├── deseq2.plots.pdf
│ ├── deseq2.sample.dists.txt
│ ├── R_sessionInfo.log
│ └── size_factors
├── quality1
│ ├── multiqc_data
│ ├── multiqc_report.html
│ ├── SRR7959221_fastqc.zip
│ ├── SRR7959222_fastqc.html
│ └── ...
├── quality2
│ ├── aaF1_fastqc.html
│ ├── aaF1_fastqc.zip
│ ├── ...
│ ├── multiqc_data
│ └── multiqc_report.html
├── reference
│ ├── gencode.v47.annotation.gtf.gz
│ └── hg38.fa -> /mnt/Archives/genome/human/GRCh38/UCSC/chromosomes/hg38.fa
├── results
│ ├── Analisis_diferencial
│ ├── dds_TypesnCondition.RData
│ ├── DE_GCvsControl.csv
│ ├── DE_LesionalGC.csv
│ ├── DE_LesionalvsHealthy.csv
│ ├── DE_NonlesionalGC.csv
│ ├── DE_NonLesionalvsHealthy.csv
│ ├── DOWN_GO_GCvsControl.RData
│ ├── figures
│ ├── UP_GO_GCvsControl.RData
│ └── vst_TypesnCondition.RData
│ ├── fastp
│ ├── aaF1.fastp.html
│ ├── aaF1.fastp.json
│ ├── ...
│ └── log
│ ├── aaF1.fastp.log
│ └── ...
│ ├── fastqc
│ ├── aaF1_fastqc.html
│ ├── aaF1_fastqc.zip
│ ├── ...
│ └── raw
│ ├── aaF1_GC_raw_fastqc.html
│ └── ...
│ ├── multiqc
│ └── star_salmon
│ ├── multiqc_report_data
│ ├── multiqc_report.html
│ └── multiqc_report_plots
│ ├── pipeline_info
│ ├── execution_report_2025-03-25_20-19-09.html`
│ ├── execution_timeline_2025-03-25_20-19-09.html
│ ├── execution_trace_2025-03-25_20-19-09.txt
│ ├── params_2025-03-25_23-40-42.json
│ ├── pipeline_dag_2025-03-25_20-19-09.html
│ ├── samplesheet.valid.csv
│ └── software_versions.yml
│ └── star_salmon
│ ├── aaF1_GC
│ ├── aux_info
│ ├── cmd_info.json
│ ├── libParams
│ ├── logs
│ ├── quant.genes.sf
│ └── quant.sf
│ ├── aaF1_GC.markdup.sorted.bam
│ ├── aaF1_GC.markdup.sorted.bam.bai
│ ├── ...
│ ├── log
│ ├── picard_metrics
│ ├── qualimap
│ ├── rseqc
│ ├── bigwig
│ ├── dupradar
│ ├── featurecounts
│ ├── salmon.merged.gene_counts* #Con esto me refiero a que hay varios archivos de cuentas de salmon.
│ ├── samtools_stats
│ ├── stringtie
│ └── tx2gene.tsv
├── SALMON_index
├── SALMON_output
│ ├── aaF1
│ ├── aux_info
│ ├── cmd_info.json
│ ├── libParams
│ ├── logs
│ ├── quant.genes.sf
│ └── quant.sf
│ ├── ... #Las otras carpetas también son por cada muestra, y son exactamente iguales a la anterior
│ ├── salmon.merged.gene_counts.tsv
│ ├── salmon.merged.* # Con el * nos referimos a que hay varios archivos que son de las cuentas de salmon.
│ └── tx2gene.tsv
├── scripts
│ ├── cache
│ ├── .nextflow
│ ├── .singularity
│ ├── .singularitynxf
│ ├── .singularitytmp
│ └── .work
│ ├── jobs
│ ├── download_data.sge
│ ├── fastqcs_raw.sge
│ ├── job_quality_raw.sge
│ └── nextflow_rna_seq_fastp.sge
│ ├── out_logs
│ ├── Download_data.o978805
│ ├── Download_data.po978805
│ └── nextflow_test1.o988120
│ ├── r_scripts
│ ├── Analisis.Rproj
│ ├── Data_Visualization.R
│ ├── DEG_Analysis.R
│ ├── GOterms_analysis.R
│ ├── index.html
│ ├── index.Rmd
│ ├── results.zip
│ ├── .Rhistory
│ ├── .Rproj.user
│ └── tables
│ ├── samplesheet.csv
│ └── work
│ ├── 00
│ ├── ... # El resto son igual, son directorios aislados donde se ejecutan los procesos.
├── STAR_index
├── STAR_output
│ ├── aaF1_GC.markdup.sorted.bam
│ ├── aaF1_GC.markdup.sorted.bam.bai
│ └── ... # Los demás archivos son los mismo pero para las demás muestras.
└── TRIM_results
├── aaF1_GC.fastp.fastq.gz
└── ... # Los demás fastqs procesados.
Adapters
En esta carpeta está vacia porque fastp detecta los adaptadores automaticamente, por lo cual no había necesidad de descargarlos de internet.
Data
Aquí tenemos nuestros datos crudos de las muestras, así como los metadastos de estas.
metadata.tsv: Son los metadatosraw: Aqui van los fastqs de las muestras sin procesar.
DEG_output
Aquí se encuentra la información de los genes diferencialmente expresados. Para hacerlo, nf-core uso DESeq2.
deseq2.pca.vals.txt`: Son los valores asignados en el PCA a cada muestra.deseq2.plots.pdf`: Aquí encontramos las gráficas creadas por deseq2 en donde se hacen PCAs de las muestras en donde se toman en cuenta los 500 genes más importantes, y con todos los genes. También encontramos un heatmap de las distancias euclideanas entre las muestras según los genes diferencialmente expresados.deseq2.sample.dists.txt`: Aquí estan las distancias euclideanas entre muestras.deseq2.dds.RData`: Este es un objeto de deseq que usamos el el análisis diferencial.size_factors`: Esta es una carpeta donde se encuentran los pesos de cada muestra para que la diferencia en reads no afecte el análisis diferencial. Ref: https://www.biostars.org/p/359060/
quality1
Aquí estan los fastqc de las muestras crudas, sin procesar. Hay un fastqc.html y un fastqc.zip por muestra, y un multiqc que abarca todas las muestras.
- Lo que no salió del pipeline de nf-core rnaseq son los datos de multiqc, esos fueron creados por nosotros aparte.
quality2
Aquí estan los fastqc de las muestras procesadas con fastp. Hay un fastqc.html y un fastqc.zip por muestra, y un multiqc que abarca todas las muestras. Es importante mencionar que estos fastqc salieron del pipeline de nf-core rnaseq, y aparte que nuestras muestras crudas parecian no tener adaptadores.
- Lo que no salió del pipeline de nf-core rnaseq son los datos de multiqc, esos fueron creados por nosotros aparte.
reference
En esta carpeta cargamos el archivo GTF del genoma humanohg38.fa, de ensembl. También añadimos la ruta al fasta del genoma humano.
results
Esta es una carepta muy amplia, que contiene todos los outputs del pipeline de nf-core rnaseq. Se explicará cada output bervemente a continuación:
Analisis_Diferencial
Esta es la única carpeta que no proviene del pipeline de nf-core, y que fue creada por nosotros para poner los outputs (figuras, csvs) del análisis diferencial que hicimos en R.
fastp
Esta carpeta contiene el análisis de fastp de cada muestra, así como sus logs y fastqc.
- Fastp nos da un html que nos puede ayudar a medir la calidad de nuestros datos, muy parecido a fastqc. Estos estan en el formato muestra.fastp.html y muestra.fastp.json.
- La otra carpeta es
log. Esta carpeta contiene toda la información de como fue el procesado de cada muestra (número de reads debajo de un threshold de calidad, reads totales, etc), y tiene la estructura muestra.log. - Por último, tenemos una carpeta
fastqc`, donde están los fastqcs de las muestras procesadas por fastp. Estos fastqc son los que pusimos en la carpeta quality2.
fastqc
Esta carpeta es un poco parecida a la de fastp, solo que se centra en
los fastqc. Al entrar, tienes los mismos fastqc procesados por fastp que
se mencionaron en la viñeta anterior (son los mismos que están en
quality2), pero también tenemos la carpeta raw`.
- En la carpeta
raw`tenemos los fastqcs pero de los datos crudos. Estos son los fastqcs que están en la carpeta quality1, y tienen la estructura muestra.fastqc.html y muestra.fastqc.zip
multiqc
En esta carpeta tenemos un multiqc creado por nf-core que resume los datos provenientes de la carepta star_salmon.
star_salmon/multiqc_report_data`: Aquí están los datos con los que se creó el multiqc. Provienen de los resultados de star_salmon.star_salmon/multiqc_report.html`: Este es el reporte que se puede abrir en tu navegador.star_salmon/multiqc_report_plots`: Estos son los plots que aparecen en el reporte.
pipeline_info
Esta carpeta es muy útil, ya que nos permite saber como es
que el pipeline de nf-core rnaseq progresó. Aquí podemos ver
errores, warnings, y también el directorio de work`donde se
realizaron los procesos, para cada uno.
execution_report_2025-03-25_20-19-09.html`: Este html nos da un reporte general de como fue el pipeline. Si hay errores o el pipe fue exitoso, se puede checar aquí. También se peude checar el uso de memoria por proceso.execution_timeline_2025-03-25_20-19-09.html`: Este es muy similar al anterior, solo que nos da una linea del tiempo.execution_trace_2025-03-25_20-19-09.txt`: Este es un archivo vital, ya que nos permite saber donde (nos da un directorio de la carpeta work) y cuando se realizó cada proceso del pipeline de nf-core, así como su progresión (para saber si hubieron errores).samplesheet.valid.csv`: Esta solo es una copia del samplesheet que hicimos (se mencionara más adelante).
star_salmon
Esta es la carpeta con más información de todos los resultados de nextflow, ya que aquí podemos encontrar los resultados de la ejecución de los programas Salmon y STAR. También están aquí los resultados de DESeq2, así como muchas otras métricas que nos dan más información del estado de las reads de cada muestra.
- Vas a observar una carpeta por cada muestra al entrar a esta
carepta. Estas carpetas contienen toda la información con respecto al
conteo hecho por Salmon para cada muestra.
quant.genes.sf y quant.sf`: Contienen el conteo de reads por gen en el caso de quant.genes.sf y de todos los transcritos en caso de quant.sf.muestra/log`: Esta carpeta contiene los out_logs de cada cuantificación hecha por Salmon.
- También en esta carpeta encontraras un archivo muestra.bai y muestra.bam.bai. Estos son los alineamientos entre reads in genoma de referencia hecho por STAR. Son los mismos acrhivos que se encuentran en la carpeta STAR_output.
/star_salmon/log`: En esta carpeta encontraras los outlogs de STAR para el alineamiento de cada muestra. Los archivos muestra.Log.progress reflejan como fue progresando el alineamiento, los muestra.Log.out contienen el comando que recibió STAR y el alineamiento in vivo, así como sus opciones. Finalmente, el archivo muestra.Log.final.out contiene los resultados del alineamiento. En este último puedes ver el porcentaje de reads que alinearon con el genoma, el numero de reads que mapearon a varios sitios del genoma, etc.star_salmon/picard_metrics`: Esta carpeta contiene un análisis con la herramienta Picard.Este es un análisis detallado de los alineamientos de reads contra genoma, y nos permite saber las metricas de duplicaciones.star_salmon/bigwig`: Estea es una carpeta con un archivo bigwig por cada alineamiento, utiles para la visualización de los alineamientos.star_salmon/deseq2_qc`:Esta es la carpeta que contiene los resultados de DESeq2, los cuales ya se explicaron anteriormente.star_salmon/dupradar`: En esta carpeta se encuentran varias gráficas (por muestra) que nos permiten conocer la duplicación de reads en nuestro alineamiento usando la herramienta dupRadar, tomando en cuenta que es normal que en RNA-seq existan duplicados, hay genes que se expresan mucho. Es útil para hacer el multiqc de la calidad de datos de STAR/Salmon.star_salmon/featurecounts`: Esta es una carpeta que usa el paquete RSubReads, con una herramienta llamada featureCounts. Sirve para hacer conteos de genes o features a partir de un BAM. No es muy útil si ya estamos usando Salmon.star_salmon/qualimap`: Esta carpeta contiene una carpeta por cada muestra, el la cual se hace uso de una herramienta llamada QualiMap, la cual se encarga de medir la calidad de los BAMs producidos por STAR y también los resultados de featureCounts.star_salmon/rseqc`: Es una carpeta que usa una herramienta con resultados muy similares a los de QualiMap. Hace uso de la herramienta RSeQC.star_salmon/samtools_stats`: Es una carpeta que contiene stats, flagstats y idxstats para cada BAM hechas con samtools.star_salmon/stringtie`: Es una carpeta que usa la herramienta StringTie, de la universidad Jhon Hopkins, para otra vez cuantificar las reads en cada BAM. La diferencia es que StringTie puede reconstruir isoformas no anotadas.- Finalmente, en esta carpeta tenemos varios archivos con la estructura salmon.merged.*, los cuales reunen los conteos hechos con Salmon en cada muestra, para tenerlos en un solo .tsv. Los archivos más importantes de este tipo son salmon.merged.gene_counts.tsv y salmon.merged.gene_counts_scaled.tsv, ya que son los que usamos para hacer el análisis de expresión diferencial.
SALMON_index
Esta carpeta tiene el index formado por salmon.
SALMON_output
Esta carpeta contiene los salmon.merged.* de la carpeta star_salmon (Equipo1/results/star_salmon), así como las carpetas en ese mismo sitio por cada muestra (que ya se mencionó anteriormente que es información proveniente de Salmon).
scripts
La carpeta de scripts contiene uestros jobs, los out_logs de los jobs, los scripts de R, el directorio del caché del pipeline, la importante carpeta work y el samplesheet.
Equipo1/scripts/jobs`: Contienen los jobs que hicimos para nuestro RNA-seq:Equipo1/scripts/jobs/download_data.sge`: Este job es el que usamos para descargar nuestros datos#!/bin/bash # Use current working directory #$ -cwd # # Join stdout and stderr #$ -j y # # Run job through bash shell #$ -S /bin/bash # #You can edit the scriptsince this line # # Your job name #$ -N Download_data # # Send an email after the job has finished #$ -m e #$ -M jasvpj@gmail.com # # If modules are needed, source modules environment (Do not delete the next line): . /etc/profile.d/modules.sh # # Add any modules you might require: # Write your commands in the next line wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/002/SRR7959202/SRR7959202.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/001/SRR7959221/SRR7959221.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/004/SRR7959194/SRR7959194.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/008/SRR7959218/SRR7959218.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/007/SRR7959197/SRR7959197.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/005/SRR7959215/SRR7959215.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/002/SRR7959212/SRR7959212.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/008/SRR7959208/SRR7959208.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/001/SRR7959191/SRR7959191.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/006/SRR7959206/SRR7959206.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/003/SRR7959193/SRR7959193.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/004/SRR7959214/SRR7959214.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/008/SRR7959198/SRR7959198.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/001/SRR7959201/SRR7959201.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/000/SRR7959220/SRR7959220.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/009/SRR7959209/SRR7959209.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/005/SRR7959205/SRR7959205.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/000/SRR7959190/SRR7959190.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/001/SRR7959211/SRR7959211.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/003/SRR7959213/SRR7959213.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/006/SRR7959216/SRR7959216.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/004/SRR7959204/SRR7959204.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/009/SRR7959189/SRR7959189.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/009/SRR7959219/SRR7959219.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/000/SRR7959210/SRR7959210.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/003/SRR7959203/SRR7959203.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/007/SRR7959217/SRR7959217.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/005/SRR7959195/SRR7959195.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/006/SRR7959196/SRR7959196.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/000/SRR7959200/SRR7959200.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/002/SRR7959222/SRR7959222.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/009/SRR7959199/SRR7959199.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/002/SRR7959192/SRR7959192.fastq.gz wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR795/007/SRR7959207/SRR7959207.fastq.gz- wget: Es una función que sirve para descargar cosas de la web.
Equipo1/scripts/jobs/nextflow_rna_seq_fastp.sge`: Este es el job principal. Es el que usamos para dar las opciones de nextflow y correr el pipeline.#!/bin/bash # Use current working directory #$ -cwd # # Join stdout and stderr #$ -j y # # Run job through bash shell #$ -S /bin/bash # #You can edit the scriptsince this line # # Your job name #$ -N nextflow_test1 # # I'm adding sonic speed to my job :) (We need it for this code to run) #$ -l vf=120G #$ -pe openmp 5 # Send an email after the job has finished #$ -m e #$ -M ghobibohg@gmail.com # # If modules are needed, source modules environment (Do not delete the next line): . /etc/profile.d/modules.sh # # Add any modules you might require: module load nextflow/23.10.0 module load singularity/3.7.0 # # Write your commands in the next line export NXF_SINGULARITY_CACHEDIR="/mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/script/cache/.singularitynxf" export SINGULARITY_CACHEDIR="/mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/script/cache/.singularity" export NXF_HOME="/mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/script/cache/.nextflow" export SINGULARITY_TMPDIR="/mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/script/cache/.singularitytmp" export NXF_WORK="/mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/script/cache/otro_cache/.work" nextflow run nf-core/rnaseq -r 3.14.0 \ -profile singularity \ -work-dir /mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/scripts/work \ --input /mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/scripts/samplesheet.csv \ --outdir /mnt/atgc-d1/bioinfoII/rnaseq/BioProject_2025/Equipo1/results \ --max_memory '120.GB' \ --max_cpus 5 \ --fasta /mnt/Archives/genome/human/GRCh38/ensembl76/chromosomes/Homo_sapiens.GRCh38.dna.primary_assembly.fa \ --gtf /mnt/Archives/genome/human/GRCh38/ensembl76/GTF-file/Homo_sapiens.GRCh38.76.gtf \ --trimmer fastp \ --extra_fastp_args '--cut_front 20' \ --aligner star_salmon-r 3.14.0: Esta opción la usamos para definir la versión de nf-core rnaseq a usar. En nuestro caso, usamos la versión 3.14.0 porque la versión de nextflow más reciente en el cluster es las 23.10,.0 y la versión de nf-core rnaseq más reciente (3.18.0) ocupa la versión 24.10.0 de nextflow.
-profile singularity: Usamos esta opción para usar el enviorment de singularity, ya que es mucho más fácil usar esto que cargar todos los programas necesarios en el cluster.
-work-dir: Esta opción define donde se va a hacer la carepta work.
–input: En este parametro se tiene que poner la samplesheet. La samplesheet contiene la ruta a todas las muestras, y también otras cosas que se explicaran es su sección dedicada.
–outdir: Este parametro define la ruta donde se alojaran todos los outputs del pipeline. En este caso, es en nuestra carpeta de results.
–max_memory: Esta opción nos permite limitar el uso de memoria del pipeline. En este caso es importante porque tenemos 34 muestras humanas, lo cual es muy demandante y el cluster tiene un limite de asignación de memoria RAM. Nosotros observamos que este limite era de 120 GB.
–max_cpus: Esta opción nos permite limitar el uso de cpus. Es un caso igual al anteriori y por lo tanto usamos solo 5 cores.
–fasta: En este parametro tenemos que poner el directorio donde se encuentra el genoma de referencia humano.
–gtf: En este parametro se pone la dirección del archivo GTF del genoma de referencia humano elegido.
–trimmer: En esta opción definimos el trimmer a usar. Podemos elegir entre fastp o trimgalore. En nuestro caso elegimos fastp porque es mucho más rápido y aparte es capaz de autodetectar los adaptadores
–aligner: Esta opción sirve para definir el alineador a usar. En este caso usamos STAR/salmon
Por último, definimos los directorios de los caches para no llenar nuestro usuario del cluster.
Equipo1/scripts/out_logs`: En esta carpeta están los out logs (procesamiento en vivo) de nuestros 2 jobs.Equipo1/scripts/r_scripts`:Equipo1/scripts/cache`: Esta carpeta es importante porque es donde se aloja el caché formado por el pipeline. En caso de no existir, nuestro usuario del cluster se llenaría con el caché del pipeline porque es la ruta predeterminada.Equipo1/scripts/work`: Esta carpeta es como el corazón de todo el pipeline, porque es en esta carpeta donde se hacen los directorios dedicados a cada proceso.Equipo1/scripts/samplesheet.csv`: Este archivo es el input del pipeline de nf-core rnaseq. La formamos poniendo el directorio hacia cada muestra cruda, poniendo si es Single end o paired end, el nombre de la muestra y su strandedness.
STAR_index
En esta carpeta se ubica el index usado en el alineamiento de STAR.
STAR_output
El output de star es justo los muestra.bam y muestra.bam.bai que se encuentran en la carpeta star_salmon (Equipo1/results/star_salmon)
TRIM_results
En esta carpeta se encuentran los fastqs procesados por fastp, con la forma muestra.fastp.fastq.gz.
r_script
Esta carpeta contiene los scripts de R que usamos para hacer el análisis diferencial, la visualización de datos y análisis funcional. También contiene un archivo .Rproj, que es un proyecto de RStudio, y un archivo .Rhistory, que guarda el historial de comandos ejecutados en R.
Resultados
Calidad de secuencias
Secuencias Crudas
Secuencias Procesadas
Limpieza de adaptadores
Alineamiento de secuencia
Los resultados del alineamiento de secuencia fueron los siguientes
table <- read.table("resumen_STAR_metrics.tsv", header = TRUE, sep = "\t")
table <- table[,-c(22:33)]
knitr::kable(table, format = "markdown", caption = "Tabla 3-1: Resumen de alineamiento")| File | Started.job.on | Started.mapping.on | Finished.on | Mapping.speed..Million.of.reads.per.hour | Number.of.input.reads | Average.input.read.length | Uniquely.mapped.reads.number | Uniquely.mapped.reads.. | Average.mapped.length | Number.of.splices..Total | Number.of.splices..Annotated..sjdb. | Number.of.splices..GT.AG | Number.of.splices..GC.AG | Number.of.splices..AT.AC | Number.of.splices..Non.canonical | Mismatch.rate.per.base… | Deletion.rate.per.base | Deletion.average.length | Insertion.rate.per.base | Insertion.average.length |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| aaF1_GC.Log.final.out | Mar 25 22:27:13 | Mar 25 22:39:18 | Mar 25 22:48:03 | 215.53 | 31432154 | 75 | 19617643 | 62.41% | 74.75 | 2057709 | 2054097 | 2025650 | 29739 | 1391 | 929 | 0.44% | 0.02% | 1.16 | 0.01% | 1.35 |
| aaF1.Log.final.out | Mar 25 21:49:57 | Mar 25 22:00:44 | Mar 25 22:06:35 | 215.47 | 21008469 | 74 | 15908544 | 75.72% | 74.72 | 1483478 | 1480440 | 1470002 | 11737 | 1079 | 660 | 0.43% | 0.02% | 1.22 | 0.01% | 1.39 |
| aaF2_GC.Log.final.out | Mar 25 22:04:11 | Mar 25 22:14:10 | Mar 25 22:20:54 | 258.76 | 29039160 | 75 | 21056010 | 72.51% | 74.75 | 2368651 | 2364759 | 2280636 | 85595 | 1384 | 1036 | 0.42% | 0.02% | 1.16 | 0.00% | 1.34 |
| aaF2.Log.final.out | Mar 25 21:49:57 | Mar 25 21:59:21 | Mar 25 22:04:09 | 217.48 | 17398102 | 75 | 10839409 | 62.30% | 74.76 | 1334600 | 1332268 | 1322304 | 10781 | 785 | 730 | 0.50% | 0.02% | 1.13 | 0.00% | 1.34 |
| aaF3_GC.Log.final.out | Mar 25 22:00:02 | Mar 25 22:10:46 | Mar 25 22:15:57 | 239.51 | 20690881 | 75 | 16852031 | 81.45% | 74.74 | 1398328 | 1394577 | 1375204 | 19642 | 2408 | 1074 | 0.44% | 0.02% | 1.26 | 0.01% | 1.39 |
| aaF3.Log.final.out | Mar 25 22:06:35 | Mar 25 22:16:59 | Mar 25 22:23:29 | 249.90 | 27072852 | 75 | 18846032 | 69.61% | 74.75 | 2345889 | 2342352 | 2323144 | 19995 | 1539 | 1211 | 0.42% | 0.02% | 1.20 | 0.01% | 1.37 |
| aaM1_GC.Log.final.out | Mar 25 22:20:57 | Mar 25 22:32:49 | Mar 25 22:41:08 | 291.57 | 40414823 | 75 | 29713972 | 73.52% | 74.74 | 3182937 | 3177469 | 3153277 | 26068 | 2021 | 1571 | 0.44% | 0.02% | 1.16 | 0.01% | 1.36 |
| aaM1.Log.final.out | Mar 25 22:15:59 | Mar 25 22:26:51 | Mar 25 22:32:49 | 250.07 | 24868052 | 75 | 20872055 | 83.93% | 74.73 | 1891753 | 1887540 | 1833141 | 56352 | 1269 | 991 | 0.44% | 0.02% | 1.25 | 0.01% | 1.37 |
| aaM2_GC.Log.final.out | Mar 25 22:08:53 | Mar 25 22:20:24 | Mar 25 22:28:15 | 221.82 | 29020998 | 75 | 20440210 | 70.43% | 74.72 | 1869929 | 1865690 | 1817897 | 49971 | 1216 | 845 | 0.41% | 0.02% | 1.25 | 0.01% | 1.39 |
| aaM2.Log.final.out | Mar 25 22:08:10 | Mar 25 22:17:52 | Mar 25 22:23:05 | 216.30 | 18805792 | 75 | 13673543 | 72.71% | 74.77 | 1455574 | 1452574 | 1419492 | 34118 | 837 | 1127 | 0.43% | 0.03% | 1.11 | 0.00% | 1.36 |
| aaM3_GC.Log.final.out | Mar 25 22:04:38 | Mar 25 22:13:55 | Mar 25 22:18:42 | 292.69 | 23333709 | 75 | 19128875 | 81.98% | 74.74 | 1837304 | 1833330 | 1820471 | 14416 | 1355 | 1062 | 0.39% | 0.02% | 1.21 | 0.01% | 1.37 |
| aaM3.Log.final.out | Mar 25 22:12:46 | Mar 25 22:23:26 | Mar 25 22:30:37 | 260.54 | 31192225 | 75 | 25895874 | 83.02% | 74.75 | 2558558 | 2553457 | 2535350 | 20140 | 1719 | 1349 | 0.40% | 0.02% | 1.20 | 0.01% | 1.37 |
| HS1233_control_S10_R1_001.Log.final.out | Mar 25 22:01:23 | Mar 25 22:18:51 | Mar 25 22:31:39 | 168.11 | 35863601 | 75 | 17181080 | 47.91% | 74.76 | 1925116 | 1921197 | 1906956 | 15888 | 1298 | 974 | 0.40% | 0.01% | 1.51 | 0.01% | 1.38 |
| HS1233_Gc_S11_R1_001.Log.final.out | Mar 25 22:26:45 | Mar 25 22:38:37 | Mar 25 22:45:29 | 212.97 | 24373372 | 75 | 19427066 | 79.71% | 74.77 | 2080030 | 2075861 | 2059764 | 17730 | 1505 | 1031 | 0.43% | 0.01% | 1.50 | 0.01% | 1.37 |
| HS1583_control_S1_R1_001.Log.final.out | Mar 25 21:49:57 | Mar 25 22:00:10 | Mar 25 22:06:28 | 244.75 | 25698344 | 75 | 21460393 | 83.51% | 74.76 | 2092247 | 2087403 | 2072626 | 17225 | 1338 | 1058 | 0.43% | 0.01% | 1.51 | 0.01% | 1.38 |
| HS1583_Gc_S2_R1_001.Log.final.out | Mar 25 22:01:56 | Mar 25 22:12:59 | Mar 25 22:19:58 | 232.41 | 27050148 | 75 | 22494281 | 83.16% | 74.76 | 2539081 | 2534535 | 2513106 | 23238 | 1666 | 1071 | 0.42% | 0.01% | 1.52 | 0.01% | 1.38 |
| HS15.Log.final.out | Mar 25 21:49:57 | Mar 25 21:58:15 | Mar 25 22:01:53 | 206.94 | 12531242 | 75 | 7782891 | 62.11% | 74.79 | 701313 | 699840 | 694168 | 6389 | 431 | 325 | 0.33% | 0.02% | 1.29 | 0.01% | 1.43 |
| HS1609_control_S12_R1_001.Log.final.out | Mar 25 22:06:36 | Mar 25 22:18:59 | Mar 25 22:27:11 | 178.98 | 24460147 | 75 | 16250359 | 66.44% | 74.75 | 1948246 | 1944371 | 1927272 | 18619 | 1252 | 1103 | 0.44% | 0.01% | 1.51 | 0.01% | 1.36 |
| HS1609_GC_S13_R1_001.Log.final.out | Mar 25 22:18:44 | Mar 25 22:32:26 | Mar 25 22:41:05 | 202.31 | 29165640 | 75 | 17931830 | 61.48% | 74.76 | 1861788 | 1857878 | 1832784 | 26786 | 1278 | 940 | 0.43% | 0.01% | 1.50 | 0.01% | 1.36 |
| HS1625_control_S3_R1_001.Log.final.out | Mar 25 21:49:57 | Mar 25 22:03:57 | Mar 25 22:12:43 | 212.97 | 31117334 | 75 | 23920715 | 76.87% | 74.76 | 1816393 | 1810126 | 1798008 | 15544 | 1271 | 1570 | 0.45% | 0.01% | 1.55 | 0.01% | 1.39 |
| HS1625_Gc_S4_R1_001.Log.final.out | Mar 25 21:49:57 | Mar 25 22:01:11 | Mar 25 22:08:52 | 241.90 | 30976190 | 75 | 25849265 | 83.45% | 74.76 | 1844162 | 1838392 | 1823051 | 18484 | 1393 | 1234 | 0.42% | 0.01% | 1.55 | 0.01% | 1.38 |
| HS1659_control_S14_R1_001.Log.final.out | Mar 25 22:09:13 | Mar 25 22:21:35 | Mar 25 22:28:52 | 220.02 | 26708425 | 75 | 21848402 | 81.80% | 74.76 | 2358899 | 2353670 | 2334540 | 21796 | 1436 | 1127 | 0.43% | 0.01% | 1.53 | 0.01% | 1.32 |
| HS1659_GC_S15_R1_001.Log.final.out | Mar 25 21:49:57 | Mar 25 22:01:15 | Mar 25 22:08:08 | 207.82 | 23841627 | 75 | 15976165 | 67.01% | 74.76 | 1587027 | 1583026 | 1569291 | 15587 | 1219 | 930 | 0.46% | 0.01% | 1.52 | 0.01% | 1.30 |
| HS1660_control_S16_R1_001.Log.final.out | Mar 25 22:00:13 | Mar 25 22:17:37 | Mar 25 22:29:30 | 136.20 | 26975261 | 75 | 9994727 | 37.05% | 74.75 | 1205837 | 1203192 | 1192934 | 11431 | 803 | 669 | 0.45% | 0.01% | 1.47 | 0.01% | 1.36 |
| HS1660_GC_S17_R1_001.Log.final.out | Mar 25 21:49:57 | Mar 25 22:00:39 | Mar 25 22:06:33 | 236.42 | 23247578 | 75 | 17852883 | 76.79% | 74.75 | 1997446 | 1992644 | 1975943 | 19228 | 1191 | 1084 | 0.45% | 0.01% | 1.51 | 0.01% | 1.36 |
| HS16.Log.final.out | Mar 25 21:49:57 | Mar 25 21:57:19 | Mar 25 22:00:02 | 274.25 | 12417406 | 75 | 10721446 | 86.34% | 74.79 | 1015063 | 1013018 | 1005011 | 8891 | 712 | 449 | 0.32% | 0.02% | 1.25 | 0.01% | 1.43 |
| HS17.Log.final.out | Mar 25 22:23:32 | Mar 25 22:31:33 | Mar 25 22:34:19 | 263.55 | 12152669 | 75 | 9706563 | 79.87% | 74.77 | 982468 | 980388 | 972423 | 8885 | 640 | 520 | 0.36% | 0.02% | 1.19 | 0.01% | 1.40 |
| HS18.Log.final.out | Mar 25 21:49:57 | Mar 25 21:57:20 | Mar 25 21:59:56 | 309.95 | 13430964 | 75 | 10448712 | 77.80% | 74.81 | 988282 | 986509 | 976085 | 11127 | 601 | 469 | 0.35% | 0.02% | 1.15 | 0.00% | 1.40 |
| HS19.Log.final.out | Mar 25 22:20:01 | Mar 25 22:28:03 | Mar 25 22:31:02 | 229.91 | 11431735 | 75 | 9528433 | 83.35% | 74.76 | 929741 | 927730 | 920930 | 7801 | 570 | 440 | 0.35% | 0.02% | 1.22 | 0.01% | 1.40 |
| HS20.Log.final.out | Mar 25 21:49:57 | Mar 25 21:58:06 | Mar 25 22:01:21 | 240.73 | 13039441 | 75 | 7826861 | 60.02% | 74.76 | 633285 | 631741 | 613216 | 19306 | 447 | 316 | 0.37% | 0.02% | 1.25 | 0.01% | 1.41 |
| HS2100_control_S18_R1_001.Log.final.out | Mar 25 21:49:57 | Mar 25 22:01:32 | Mar 25 22:09:11 | 224.28 | 28595660 | 75 | 23306110 | 81.50% | 74.76 | 2690461 | 2685516 | 2661513 | 25784 | 1876 | 1288 | 0.43% | 0.01% | 1.50 | 0.01% | 1.35 |
| HS2100_GC_S19_R1_001.Log.final.out | Mar 25 22:06:41 | Mar 25 22:19:03 | Mar 25 22:26:43 | 190.73 | 24371128 | 75 | 16342216 | 67.06% | 74.76 | 1847088 | 1843427 | 1827533 | 17453 | 1145 | 957 | 0.45% | 0.01% | 1.49 | 0.01% | 1.36 |
| HS2191_control_S7_R1_001.Log.final.out | Mar 25 22:23:07 | Mar 25 22:35:14 | Mar 25 22:42:10 | 227.87 | 26331422 | 75 | 21348559 | 81.08% | 74.79 | 2010485 | 2006192 | 1990882 | 17401 | 1316 | 886 | 0.43% | 0.01% | 1.51 | 0.01% | 1.39 |
| HS2191_GC_S8_R1_001.Log.final.out | Mar 25 21:49:57 | Mar 25 21:59:49 | Mar 25 22:04:35 | 293.26 | 23297721 | 75 | 19807088 | 85.02% | 74.76 | 2016209 | 2012083 | 1995588 | 18108 | 1552 | 961 | 0.42% | 0.01% | 1.51 | 0.01% | 1.36 |
Predicción de cuentas
Expresión diferencial
Utilizando el .Rdata que el pipeline de nf-core/rnaseq generó, se realizó un análisis de expresión diferencial utilizando el paquete DESeq2. Este análisis permite identificar genes que presentan cambios significativos en su expresión entre las diferentes condiciones del estudio (antes y después del tratamiento con glucocorticoides).
Se utilizo ademas la metadata (Tabla 5-1) para realizar un analisis de expresión diferencial entre las muestras de control y tratamiento con glucocorticoides.
| sample_title | run_accession | sample_alias | Individuals | Type | Condition |
|---|---|---|---|---|---|
| aaF1 | SRR7959189 | GSM3415442 | 1 | Control | Lesional |
| aaF1_GC | SRR7959190 | GSM3415443 | 1 | GC | Lesional |
| aaF2 | SRR7959191 | GSM3415444 | 2 | Control | Lesional |
| aaF2_GC | SRR7959192 | GSM3415445 | 2 | GC | Lesional |
| aaF3 | SRR7959193 | GSM3415446 | 3 | Control | Lesional |
| aaF3_GC | SRR7959194 | GSM3415447 | 3 | GC | Lesional |
| aaM1 | SRR7959195 | GSM3415448 | 6 | Control | Lesional |
| aaM1_GC | SRR7959196 | GSM3415449 | 6 | GC | Lesional |
| aaM2 | SRR7959197 | GSM3415450 | 7 | Control | Nonlesional |
| aaM2_GC | SRR7959198 | GSM3415451 | 7 | GC | Nonlesional |
| aaM3 | SRR7959199 | GSM3415452 | 8 | Control | Nonlesional |
| aaM3_GC | SRR7959200 | GSM3415453 | 8 | GC | Nonlesional |
| HS15 | SRR7959201 | GSM3415454 | 4 | Control | Lesional |
| HS16 | SRR7959202 | GSM3415455 | 4 | GC | Lesional |
| HS17 | SRR7959203 | GSM3415456 | 9 | Control | Nonlesional |
| HS18 | SRR7959204 | GSM3415457 | 9 | GC | Nonlesional |
| HS19 | SRR7959205 | GSM3415458 | 5 | Control | Lesional |
| HS20 | SRR7959206 | GSM3415459 | 5 | GC | Lesional |
| HS1233_control_S10_R1_001 | SRR7959207 | GSM3415460 | 10 | Control | Nonlesional |
| HS1233_Gc_S11_R1_001 | SRR7959208 | GSM3415461 | 10 | GC | Nonlesional |
| HS1583_control_S1_R1_001 | SRR7959209 | GSM3415462 | 12 | Control | Nonlesional |
| HS1583_Gc_S2_R1_001 | SRR7959210 | GSM3415463 | 12 | GC | Nonlesional |
| HS1609_control_S12_R1_001 | SRR7959211 | GSM3415464 | 13 | Control | Healthy |
| HS1609_GC_S13_R1_001 | SRR7959212 | GSM3415465 | 13 | GC | Healthy |
| HS1625_control_S3_R1_001 | SRR7959213 | GSM3415466 | 14 | Control | Healthy |
| HS1625_Gc_S4_R1_001 | SRR7959214 | GSM3415467 | 14 | GC | Healthy |
| HS1659_control_S14_R1_001 | SRR7959215 | GSM3415468 | 15 | Control | Healthy |
| HS1659_GC_S15_R1_001 | SRR7959216 | GSM3415469 | 15 | GC | Healthy |
| HS1660_control_S16_R1_001 | SRR7959217 | GSM3415470 | 16 | Control | Healthy |
| HS1660_GC_S17_R1_001 | SRR7959218 | GSM3415471 | 16 | GC | Healthy |
| HS2100_control_S18_R1_001 | SRR7959219 | GSM3415472 | 17 | Control | Healthy |
| HS2100_GC_S19_R1_001 | SRR7959220 | GSM3415473 | 17 | GC | Healthy |
| HS2191_GC_S8_R1_001 | SRR7959221 | GSM3415474 | 18 | Control | Healthy |
| HS2191_control_S7_R1_001 | SRR7959222 | GSM3415475 | 18 | GC | Healthy |
Apartir de esto se modifico el objeto dds anteriormente creado con el
pipeline de nextflow para que contenga la metadata y que incluya las
variables que queremos observar, en este caso el tratamiento y el tipo
de muestra. Se utilizo el paquete DESeq2 para realizar el
analisis de expresión diferencial, usando la función
DESeq() ejecutamos el analisis de expresion diferencial
para posteriormente realizar una transformacion de varianza estabilizada
(VST), es una técnica que ajusta los datos para hacer que la varianza
sea más homogénea entre diferentes niveles de expresión.
Para identificar patrones en los datos, se realizó un análisis de
componentes principales (PCA) sobre la matriz normalizada. El PCA es una
técnica estadística que reduce la dimensionalidad de los datos y permite
visualizar la variabilidad en las muestras. Se utilizaron las variables
Type (tratamiento) y Condition (La condición
de la piel) para observar cómo se distribuyen las muestras en el espacio
de componentes principales.
Los resultados de la funcion results() del paquete
DESeq2 nos permiten observar los genes que presentan
cambios significativos en su expresión entre las diferentes condiciones
del estudio (antes y después del tratamiento con glucocorticoides).
out of 50781 with nonzero total read count
adjusted p-value < 0.1
LFC > 0 (up) : 661, 1.3%
LFC < 0 (down) : 667, 1.3%
outliers [1] : 672, 1.3%
low counts [2] : 30935, 61%
(mean count < 6)
[1] see 'cooksCutoff' argument of ?results
[2] see 'independentFiltering' argument of ?results
Chunk 1: Se identificaron un total de 1.328 genes (661 sobreexpresados + 667 subexpresados) que muestran cambios significativos en respuesta al tratamiento con glucocorticoides. 672 genes fueron atipicos, estos son genes que mostraron patrones de expresión extremos o inconsistentes. El 61% restante corresponde a genes con conteos bajos, lo que indica que no se detectaron suficientes lecturas para realizar un análisis confiable de su expresión.
La cantidad de genes diferencialmente expresados se puede ver de una mejor manera en el volcano plot (Figura 5-2).
Viendo esto podemos hacer un heatmap (Figura 5-3) para
identificar cuales son los genes que se encuentran sobreexpresados y
subexpresados en las muestras tratadas con glucocorticoides. En los
resultados coinciden con la idea de que los glucocorticoides tienen un
efecto antiinflamatorio, ya que se observa una disminución en la
expresión de genes relacionados con la inflamación y la respuesta
inmune. Los que vamos a tomar en cuenta para este reporte son:
GLUL, TSC22D3, BEST2,
LAMA2 y DKK1.
Analisis funcional
Para comprobar las funciones de los genes se realizó un análisis
funcional utilizando el paquete gprofiler2, que permite
realizar un análisis de enriquecimiento funcional y obtener información
sobre los procesos biológicos, vías metabólicas y funciones moleculares
asociadas a los genes diferencialmente expresados.
Los resultados del análisis funcional se presentan en la Figura 6-1, donde se observa que los genes diferencialmente sobreexpresados están relacionados con procesos biológicos.
Se usa gost() para realizar el análisis de
sobre-representación de términos de Gene Ontology (GO:BP, GO:CC, GO:MF), rutas de KEGG, Reactome (REAC) y
bases de datos adicionales como WP, TF, MIRNA, CORUM, HP y HPA.
Se almacenan los términos enriquecidos para genes up- y down-regulated.
Gráfico Manhattan (Figura 6-1c): Se genera una imagen de dispersión (Manhattan plot) con los términos enriquecidos y su significancia (p-value).
Barplot de genes Down-regulated(Figura 6-1d): Se grafican los 40 términos más enriquecidos para genes subexpresados.
Barplot de genes Up-regulated(Figura 6-1a): Se grafican los 40 términos más enriquecidos para genes sobreexpresados.
`
Ademas se realizo una visualizacion de la via de señalizacion de IL-17 que se caracteriza principalmente por la activacion de la via de NF-kB y MAPK, lo que lleva a la produccion de citoquinas proinflamatorias como IL-6, IL-8 y TNF-alfa. Esta via es importante en la patogenesis de la psoriasis, ya que se ha demostrado que los glucocorticoides pueden inhibir la activacion de esta via y reducir la inflamacion en la piel.
Utilizando el paquete pathview, se generó una
visualización de la vía de señalización de IL-17 (Figura 6-2). Esta vía
es relevante en la psoriasis, ya que se ha demostrado que los
glucocorticoides pueden inhibir su activación y reducir la inflamación
en la piel.